<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   讲给硅谷创业者的大数据精华集合（附ppt）  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://dataunion.org/9089.html",
                  host: "http://dataunion.org",
                  prePath: "http://dataunion.org",
                  scheme: "http",
                  pathBase: "http://dataunion.org/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466454710: Accept with keywords: (title(0.25):社区,大,创业者,数盟,精华,集合,硅谷,数据, topn(0.333333333333):大家,社区,创业,数盟,智能,开源,内存,计算机,人工智能,数据库,技术,基础架构,计算,分布式系统,文档,Spark,数据,公司,机器,文章,Hadoop,算法,领域,硅谷,百度,格子,创业者,课程,互联网,版本).-->
 </head>
 <body onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    讲给硅谷创业者的大数据精华集合（附ppt）
   </h1>
  </div>
  <div class="container" id="xmain">
   ﻿﻿
   <title>
    讲给硅谷创业者的大数据精华集合（附ppt） | 数盟社区
   </title>
   <!-- All in One SEO Pack 2.2.7.6.2 by Michael Torbert of Semper Fi Web Design[32,68] -->
   <!-- /all in one seo pack -->
   <!--
<div align="center">
<a href="http://strata.oreilly.com.cn/hadoop-big-data-cn?cmp=mp-data-confreg-home-stcn16_dataunion_pc" target="_blank"><img src="http://dataunion.org/wp-content/uploads/2016/05/stratabj.jpg"/ ></a>
</div>
-->
   <header id="header-web">
    <div class="header-main">
     <hgroup class="logo">
      <h1>
       <a href="http://dataunion.org/" rel="home" title="数盟社区">
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/logo.png"/>
       </a>
      </h1>
     </hgroup>
     <!--logo-->
     <nav class="header-nav">
      <ul class="menu" id="menu-%e4%b8%bb%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-71" id="menu-item-71">
        <a href="http://dataunion.org/category/events" title="events">
         活动
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22457" id="menu-item-22457">
          <a href="http://dataunion.org/2016timeline">
           2016档期
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22459" id="menu-item-22459">
          <a href="http://dataunion.org/category/parterc">
           合作会议
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20869" id="menu-item-20869">
        <a href="http://dataunion.org/category/tech" title="articles">
         文章
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20867" id="menu-item-20867">
          <a href="http://dataunion.org/category/tech/base" title="base">
           基础架构
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3302" id="menu-item-3302">
          <a href="http://dataunion.org/category/tech/ai" title="ai">
           人工智能
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3303" id="menu-item-3303">
          <a href="http://dataunion.org/category/tech/analysis" title="analysis">
           数据分析
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21920" id="menu-item-21920">
          <a href="http://dataunion.org/category/tech/dm">
           数据挖掘
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3314" id="menu-item-3314">
          <a href="http://dataunion.org/category/tech/viz" title="viz">
           可视化
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3305" id="menu-item-3305">
          <a href="http://dataunion.org/category/tech/devl" title="devl">
           编程语言
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20876" id="menu-item-20876">
        <a href="http://dataunion.org/category/industry">
         行业
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-16328" id="menu-item-16328">
          <a href="http://dataunion.org/category/industry/case" title="case">
           行业应用
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-2112" id="menu-item-2112">
          <a href="http://dataunion.org/category/industry/demo" title="demo">
           Demo展示
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21562" id="menu-item-21562">
          <a href="http://dataunion.org/category/industry/news">
           行业资讯
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-311" id="menu-item-311">
        <a href="http://dataunion.org/category/sources" title="sources">
         资源
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20870" id="menu-item-20870">
        <a href="http://dataunion.org/category/books" title="book">
         图书
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21363" id="menu-item-21363">
        <a href="http://dataunion.org/category/training">
         课程
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-21853" id="menu-item-21853">
        <a href="http://dataunion.org/category/jobs">
         职位
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22050" id="menu-item-22050">
          <a href="http://dataunion.org/category/career">
           职业规划
          </a>
         </li>
        </ul>
       </li>
      </ul>
     </nav>
     <!--header-nav-->
    </div>
   </header>
   <!--header-web-->
   <div id="main">
    <div id="soutab">
     <form action="http://dataunion.org/" class="search" method="get">
     </form>
    </div>
    <div id="container">
     <nav id="mbx">
      当前位置：
      <a href="http://dataunion.org">
       首页
      </a>
      &gt;
      <a href="http://dataunion.org/category/uncategorized">
       未分类
      </a>
      &gt;  正文
     </nav>
     <!--mbx-->
     <article class="content">
      <header align="centre" class="contenttitle">
       <div class="mscc">
        <h1 class="mscctitle">
         <a href="http://dataunion.org/9089.html">
          讲给硅谷创业者的大数据精华集合（附ppt）
         </a>
        </h1>
        <address class="msccaddress ">
         <em>
          3,158 次阅读 -
         </em>
         <a href="http://dataunion.org/category/uncategorized" rel="category tag">
          未分类
         </a>
        </address>
       </div>
      </header>
      <div class="content-text">
       <p>
        作者：董飞
       </p>
       <p>
        讲给硅谷创业者的大数据入门系列！2015.01.17 硅谷创业协会讲座笔记。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片1.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片1.jpg"/>
        </a>
       </p>
       <p>
        大家好，今天的讲座主题是大数据入门，我的大纲如下
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片2.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片2.jpg"/>
        </a>
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片3.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片3.jpg"/>
        </a>
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片4.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片4.jpg"/>
        </a>
       </p>
       <p>
        在硅谷大家非常热情的谈创业谈机会，我也通过自己的一些观察和积累，看到了不少最近几年涌现的热门创业公司。我给大家一个列表，这个是华尔街网站的全世界创业公司融资规模评选（
        <a href="http://graphics.wsj.com/billion-dollar-club/">
         http://graphics.wsj.com/billion-dollar-club/
        </a>
        ）。它本来的标题是billion club，我在去年讲座也分享过，不到一年的时间，截至到2015年1月17日，现在的排名和规模已经发生了很大的变化。首先估值在10Billlon的达到了7家，而一年前一家都没有。第二第一名是中国人家喻户晓的小米，第三，前20名中，绝大多数（8成在美国，在加州，在硅谷，在旧金山！）比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的，比如Flipkart就是印度市场的淘宝，Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber)，大数据（Palantir），消费级互联网，通讯(Snapchat)，支付(Square)，O2O App里面寻找下大机会。这里面很多公司我都亲自面试和感受过他们的环境，我下面有机会也会一一给大家详细介绍。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片5.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片5.jpg"/>
        </a>
       </p>
       <p>
        在Linkedin，它每年评选一个最有需求的创业公司名单，基本上结合Linkedin用户访问量，申请数做出的挖掘。我这里列出了最近3年，大家可以做个判别和趋势分析，里面还是很大靠谱的，比如不少上榜名单已经成功IPO（GoPro. Hortonworks, Splunk)，里面有很多大数据领域公司（Splunk, Box, Nimble Storage, Violin Memroy, Dropbox）除了之前看到的一些互联网项目，在一些医疗健康（theranos），智能硬件(leap motion, fitbit, Jawbone)，在线教育（Coursera),也吸引了很大注意力。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片6.png">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片6.png"/>
        </a>
       </p>
       <p>
        看了那么多高估值公司，很多人都觉得非常疯狂，是不是很大泡沫了，泡沫是不是要破了，这是很多人的疑问。在硅谷这个充满梦想的地方，投资人鼓励创业者大胆去做同样也助长了泡沫，很多项目在几个月的时间就会估值翻2，3倍，如Uber，Snapchat上我也惊讶于他们的巨额融资规模。那么这张图就是讲“新兴技术炒作”周期，把各类技术按照技术成熟度和期望值分类，这是硅谷创业孵化器YCombinator 课程How to start a startup（http://startupclass.samaltman.com/）提到。创新萌芽Innovation Trigger”、“期望最顶点Peak ofInflated Expectation”、“下调预期至低点Trough of Disillusion”、“回归理想Slope ofEnlightenment”、“生产率平台Plateau of Productivity”，越往左，技术约新潮，越处于概念阶段；越往右，技术约成熟，约进入商业化应用，发挥出提高生产率的效果。纵轴代表预期值，人们对于新技术通常会随着认识的深入，预期不断升温，伴之以媒体炒作而到达顶峰；随之因技术瓶颈或其他原因，预期逐渐冷却至低点，但技术技术成熟后，期望又重新上升，重新积累用户，然后就到了可持续增长的健康轨道上来。今年和去年的图对比显示，物联网、自动驾驶汽车、消费级3D打印、自然语言问答等概念正在处于炒作的顶峰。而大数据已从顶峰滑落，NFC和云计算接近谷底。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片7.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片7.jpg"/>
        </a>
       </p>
       <p>
        未来趋势是什么？大家都很关心。我先提一个最近看的一部电影《Imitation Game》,讲计算机逻辑的奠基者艾伦图灵（计算机届最高奖以他命名）艰难的一生，他当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献，挽回几千万人的生命，可在那个时代因为同性恋被判化学阉割，自杀结束了短暂的42岁生命。他的一个伟大贡献就是在人工智能的开拓工作，他提出图灵测试（Turing Test）,测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天，人工智能已经有了很大进步，从专家系统到基于统计的学习，从支持向量机到神经网络深度学习，每一步都带领机器智能走向下一个阶梯。在Google资深科学家吴军博士（数学之美，浪潮之巅作者），他提出当前技术发展三个趋势，第一，云计算和和移动互联网，这是正在进行时；第二，机器智能，现在开始发生，但对社会的影响很多人还没有意识到；第三，大数据和机器智能结合，这是未来时，一定会发生，有公司在做，但还没有太形成规模。他认为未来机器会控制98％的人，而现在我们就要做个选择，怎么成为剩下的2％？
        <a href="http://chuansong.me/n/1089215">
         http://chuansong.me/n/1089215
        </a>
        李开复在2015年新年展望也提出未来五年物联网带来庞大创业机会。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片8.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片8.jpg"/>
        </a>
       </p>
       <p>
        大数据入门，我们做个思考，以前有个国王很阔绰也很爱排场，有天他很高兴想奖赏他的宠臣，然后说让他来提任何奖励，这个大臣给国王看下面这个棋盘，是个8＊8的方格，如果我在每个标号的格子内放米粒，第一个格子放1粒米，后面的格子总是前面格子的两倍。那么问题来了，如果我把整个棋盘放满，需要多少米粒？我们学过级数的话，可以快速做个演算，它的推演是 1 + 2 + 4 … + 2^63 ＝ 2^64 – 1 这个数字多大很多人没印象，反正如果真的要兑现的话，这个国家肯定是破产了。其实我把这个棋盘分成上下两半，在上一半总共需要的米粒是2^32, 这并不是个很大的数，其实前几年计算机的32位就是那么大，但下半场就完全不一样了，这是个平方级别的scale，我下面会给大家一个交代。现在大家也经常听到什么手机64位处理器，其实并无实际意义。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片9.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片9.jpg"/>
        </a>
       </p>
       <p>
        我们接着看这张曲线图是信息时代的增长，其实在工业革命之前（1820年），世界人均GDP在1800年前的两三千年里基本没有变化，而从1820年到2001年的180年里，世界人均GDP从原来的667美元增长到6049美元。由此足见，工业革命带来的收入增长的确是翻天覆地的。这里面发生了什么，大家可以去思考一下。但人类的进步并没有停止或者说稳步增长，在发明了电力，电脑，互联网，移动互联网，全球年GDP增长 从万分之5到2％，信息也是在急剧增长，根据计算，最近两年的信息量是之前30年的总和，最近10年是远超人类所有之前累计信息量之和。在计算机时代，有个著名的摩尔定律，就是说同样成本每隔18个月晶体管数量会翻倍，反过来同样数量晶体管成本会减半，这个规律已经很好的match了最近30年的发展，并且可以衍生到很多类似的领域：存储，功耗，带宽，像素。而下面这个是冯诺伊曼，20世纪最重要的数学家之一，在现代计算机、博弈论和核武器等诸多领域内有杰出建树的最伟大的科学全才之一。他提出(技术)将会逼近人类历史上的某种本质的奇点,在那之后 全部人类行为都不可能以我们熟悉的面貌继续存在。这就是著名的奇点理论。目前会越来越快指数性增长，美国未来学家Ray Kurzweil称人类能够在2045年实现数字化永生，他自己也创办奇点大学，相信随着信息技术、无线网、生物、物理等领域的指数级增长，将在2029年实现人工智能，人的寿命也将会在未来15年得到大幅延长。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片10.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片10.jpg"/>
        </a>
       </p>
       <p>
        我们在回到现在，地球上至今的数据量从GB，TB，PB，EB到达ZB，我们之前提出的2^64就相当于16EB的大小
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片11.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片11.jpg"/>
        </a>
       </p>
       <p>
        大数据的用途，所谓学以致用，大数据领域在各个行业都可以应用，这里举出几个有趣的例子，在Linkedin的时候，CEO提出经济图谱的概念，希望整合用户，公司，工作机会，技能，学校，帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象，有个国外的极客，他抓取了dating网站的数据，根据有些指标如地理，年龄，兴趣，建立下面的3D模型找到真爱；例如阿里巴巴通过数据魔方（它们的大数据产品），提炼出消费跟女生胸部成正比的结论。在移动App上，今日头条通过你的个人社会化信息，建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明；在线教育领域：MOOC中的M就是大规模的意思；其他如互联网金融人人贷，通过大数据积累信用，释放一些传统金融体系下未被满足而又广泛存在的巨大需求，最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财，23andMe提供个人基因组的“大数据“。等等
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片12.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片12.jpg"/>
        </a>
       </p>
       <p>
        除了大数据，从另一个微观角度如何看小，这就像相对论和量子力学，Google院士Jeff Dean给出了一些非常基本，但也是学计算机需要掌握的数字。在计算机体系结构里有个局部性原理（Locality）越往上的就越快，当然代价就是非常珍贵，从寄存器到CPU L2 Cache, 从内存到Flash到磁盘到网络，从连续读到随机读，它们的速率都是相差数量级的。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片13.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片13.jpg"/>
        </a>
       </p>
       <p>
        这是2014年别人总结的Big Data公司列表，我们大致可以分成基础架构和应用，而底层都是会用到一些通用技术，如Hadoop，Mahout，HBase，Cassandra，我在下面也会涵盖。我可以举几个例子，在分析这一块，cloudera，hortonworks，mapr作为Hadoop的三剑客，一些运维领域，mangodb，couchbase都是nosql的代表，作为服务领域AWS和Google BigQuery剑拔弩张，在传统数据库，Oracle收购了MySQL，DB2老牌银行专用，Teradata做了多年数据仓库。上面的Apps更多，比如社交消费领域Google, Amazon, Netflix, Twitter, 商业智能：SAP，GoodData，一些在广告媒体领域：TURN，Rocketfuel，做智能运维sumologic等等。最后还有个去年的新星 Databricks 伴随着Spark的浪潮震撼Hadoop的生态系统。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片14.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片14.jpg"/>
        </a>
       </p>
       <p>
        对于迅速成长的中国市场，大公司也意味着大数据，BAT三家都是对大数据的投入也是不惜余力，我4年前在Baidu的的时候，就提出框计算的东东，最近两年成立了硅谷研究院，挖来Andrew Ng作为首席科学家，研究项目就是百度大脑，在语音，图片识别大幅提高精确度和召回率，最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟，自己研发了C++平台的海量存储系统。淘宝去年双十一主战场，2分钟突破10亿，
        <b>
         交易
        </b>
        额突破571亿，背后是有很多故事，当年在百度做Pyramid（按Google三辆马车打造的金字塔三层分布式系统）有志之士，继续在OceanBase创造神话。而阿里云当年备受争议，马云也怀疑是不是被王坚忽悠，最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望，一方面这么多数据几何级数增长，另一方面存储带宽都是巨大成本，没价值就真破产。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片15.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片15.jpg"/>
        </a>
       </p>
       <p>
        大数据相关技术，最紧密的就是云计算，我列出主要是Amazon Web Service和Google Cloud Platform，在国内还有阿里云，金山云，百度云，腾讯云，小米云，360云，七牛。。每个里面都是大量技术文档和标准，从计算到存储，从数据库到消息，从监控到部署管理，从虚拟网络到CDN，把所有的一切用软件重新定义了一遍。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片16.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片16.jpg"/>
        </a>
       </p>
       <p>
        我本人在Amazon 云计算部门工作过，所有还是比较了解AWS，总体上成熟度很高，有大量startup都是基于上面开发，比如有名的Netflix，Pinterest，Coursera。Amazon还是不断创新，每年召开reInvent大会推广新的云产品和分享成功案例，在这里面我随便说几个，像S3是简单面向对象的存储，DynamoDB是对关系型数据库的补充，Glacier对冷数据做归档处理，Elastic MapReduce直接对MapReduce做打包提供计算服务，EC2就是基础的虚拟主机，Data Pipeline 会提供图形化界面直接串联工作任务。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片17.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片17.jpg"/>
        </a>
       </p>
       <p>
        这边还可以说一下Redshift，它是一种（massively parallel computer）架构，是非常方便的数据仓库解决方案，就是SQL接口，跟各个云服务无缝连接，最大特点就是快，在TB到PB级别非常好的性能，我在工作中也是直接使用，它还支持不同的硬件平台，如果想速度更快，可以使用SSD的，当然支持容量就小些。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片18.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片18.jpg"/>
        </a>
       </p>
       <p>
        在数据库领域，我就列出三种代表，一类是关系型数据库管理系统，它的特点是A(Atomic), C(consistent), I(isolation), D(duration), 连起来就是ACID（酸） 简单说就是支持事务回滚和外键关联。而NoSQL是与之对应的Base（碱），所谓Basic 可用，为了扩大Scale，牺牲一些一致性和事务。而Google提出F1，希望解决在大规模数据的同时还要做到事务强一致性。在这里面都是非常常见的NoSQL, 这些公司可能你都没听过，但它们都是融资过亿，估值都非常高，在几个billion以上。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片19.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片19.jpg"/>
        </a>
       </p>
       <p>
        我会花一些篇幅介绍Hadoop，首先看Hadoop从哪里开始的，不得不提Google的先进性，在10多年前，Google出了3篇paper论述分布式系统的做法，分别是GFS, MapReduce, BigTable,非常NB的系统，但没人见过，在工业界很多人痒痒的就想按其思想去仿作，当时Apache Nutch Lucene的作者Doug Cutting也是其中之一，后来他们被Yahoo收购，专门成立Team去投入做，就是Hadoop的开始和大规模发展的地方，之后随着Yahoo的衰落，牛人去了Facebook, Google, 也有成立了Cloudera, Hortonworks等大数据公司，把Hadoop的实践带到各个硅谷公司。而Google还没有停止，又出了新的三辆马车，Pregel, Caffeine, Dremel, 后来又有很多步入后尘，开始新一轮开源大战。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片20.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片20.jpg"/>
        </a>
       </p>
       <p>
        那么为啥Hadoop就比较适合做大数据呢？首先扩展很好，直接通过加节点就可以把系统能力提高，它有个重要思想是移动计算而不是移动数据，因为数据的移动是很大的成本需要网络带宽。其次它提出的目标就是利用廉价的普通计算机（硬盘），这样虽然可能不稳定（磁盘坏的几率），但通过系统级别上的容错和冗余达到高可靠性。并且非常灵活，可以使用各种data，二进制，文档型，记录型。使用各种形式（结构化，半结构化，非结构化所谓的schemaless），在按需计算上也是个技巧。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片21.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片21.jpg"/>
        </a>
       </p>
       <p>
        另一个问题，我们提到Hadoop一般不会说某一个东西，而是指生态系统，在这里面太多交互的组件了，涉及到IO，处理，应用，配置，工作流。在真正的工作中，当几个组件互相影响，你的头疼的维护才刚刚开始。我也简单说几个：Hadoop Core就三个HDFS，MapReduce，Common，在外围有NoSQL: Cassandra, HBase, 有Facebook开发的数据仓库Hive，有Yahoo主力研发的Pig工作流语言，有机器学习算法库Mahout，工作流管理软件Oozie，在很多分布式系统选择Master中扮演重要角色的Zookeeper。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片22.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片22.jpg"/>
        </a>
       </p>
       <p>
        这是Hortonworks提出的data platform,这个公司比较强势，它有最多的Hadoop committee成员，是真正的标准制定者。而2。0就是由它们提出。在Hadoop 1。0之前，是0.16到0.19,0.20，还有一只是0。23进化成现在的2。0，应该说现在大致都是被2。0取代了。主要区别是 1.0只能支持MapReduce框架，资源和数据处理限制在一起。而2。0首先抽象出Yarn这个资源管理器，然后上层可以支持各种插件机制，便于扩展，Hortonworks还研发了Tez作为加速引擎把一些相关任务合并共享或者并行来优化。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片23.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片23.jpg"/>
        </a>
       </p>
       <p>
        这个是Intel给出的Hadoop Stack，Intel也是个对技术前沿由追求的公司，虽然它主业是处理器，但在互联网的时代，为了抓住一些软件机会，它们也在积极融合，为生态系统做贡献。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片24.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片24.jpg"/>
        </a>
       </p>
       <p>
        Cloudera是老牌Hadoop公司，成立了7，8年了，当年的Hadoop之父就是在那做首席架构，它提出的CDH版本是很多公司的稳定Hadoop版本，一般公司也不会自己去搭Hadoop最新版，否则出了Bug会很痛苦，它提供了一个打包方便部署。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片25.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片25.jpg"/>
        </a>
       </p>
       <p>
        下面的内容涉及技术细节甚至源代码，可能有些枯燥，我也尽量深入浅出。我们先说HDFS，所谓Hadoop的分布式文件系统，它是能真正做到高强度容错。并且根据locality原理，对连续存储做了优化。简单说就是分配大的数据块，每次连续读整数个。如果让你自己来设计分布式文件系统，在某机器挂掉还能正常访问该怎么做？首先需要有个master作为目录查找（这里就是Namenode），那么数据节点是作为分割好一块块的，同一块数据为了做备份不能放到同一个机器上，否则这台机器挂了，你备份也同样没办法找到。HDFS用一种机架位感知的办法，先把一份拷贝放入同机架上的机器，然后在拷贝一份到其他服务器，也许是不同数据中心的，这样如果某个数据点坏了，就从另一个机架上调用，而同一个机架它们内网连接是非常快的，如果那个机器也坏了，只能从远程去获取。这是一种办法，现在还有基于erasure code本来是用在通信容错领域的办法，可以节约空间又达到容错的目的，大家感兴趣可以去查询。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片26.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片26.jpg"/>
        </a>
       </p>
       <p>
        接着说MapReduce，首先是个编程范式，它的思想是对批量处理的任务，分成两个阶段，所谓的Map阶段就是把数据生成key, value pair, 再排序，中间有一步叫shuffle，把同样的key运输到同一个reducer上面去，而在reducer上，因为同样key已经确保在同一个上，就直接可以做聚合，算出一些sum， 最后把结果输出到HDFS上。对应开发者来说，你需要做的就是编写Map和reduce函数，像中间的排序和shuffle网络传输，容错处理，框架已经帮你做好了。但据说google内部早不用这种，又有新的强大工具出现了。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片27.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片27.jpg"/>
        </a>
       </p>
       <p>
        HBase 就是对应的BigTable的克隆版，它是基于列的存储，可以很好的扩展型，这里面出现了Zookeeper作为它高可靠性的来源，我们在分布式系统中经常怕Single Point of Failure，它能保证在少于一半节点损害情况下，还是可以工作的。这里的region server是说把数据的key做范围的划分，比如region server1负责key从1到1w的，region server2负责1w到2w的，这样划分之后就可以利用分布式机器的存储和运算能力了。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片28.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片28.jpg"/>
        </a>
       </p>
       <p>
        虽然MapReduce强大，但编写很麻烦，在一般的工作中大家不会直接写MapReduce程序。有人又开动大脑，简化开发。Hive的简单介绍，它主要是Facebook开发，确实很容易上手，如果做data scientist，经常也要用到这个工具
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片29.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片29.jpg"/>
        </a>
       </p>
       <p>
        我们还是看个基本的例子，看看到底怎么写Hadoop的代码，每个编程语言都有个hello world的版本，对应的Hadoop就是Word Count。需求很简单，就是为文档中的每个单词统计词频，当然这个文档如果很小，用PC上Linux命令就可以做到，问题是如果是1Billion以上的文本呢？单机无法装的下。这时候典型的思路就是分而治之：先对每个文档片段做个Map，生成单词到频率（1）的对应，然后把同样单词（key）送入到同一个reducer上面去，最后每个reducer加一下就拿到最后结果，是不是很简单？
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片30.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片30.jpg"/>
        </a>
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片31.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片31.jpg"/>
        </a>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片32.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片32.jpg"/>
        </a>
       </p>
       <p>
        好，我们分别看下Java/Hive/Pig的版本，总体上Hive最精炼。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片33.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片33.jpg"/>
        </a>
       </p>
       <p>
        我们想MapReduce模型有什么问题？第一：需要写很多底层的代码不够高效，第二：所有的事情必须要转化成两个操作，这本身就很奇怪，也不能解决所有的情况。那么下面就看看有么有什么可以做的更好的
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片34.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片34.jpg"/>
        </a>
       </p>
       <p>
        我还是介绍一些Spark的起源。发自 2010年Berkeley AMPLab，发表在hotcloud 是一个从学术界到工业界的成功典范，也吸引了顶级VC：Andreessen Horowitz的 注资 AMPLab这个实验室非常厉害，做大数据，云计算，跟工业界结合很紧密，之前就是他们做mesos，hadoop online, 在2013年，这些大牛（Berkeley系主任，MIT最年轻的助理教授）从Berkeley AMPLab出去成立了Databricks，引无数Hadoop大佬尽折腰，其实也不见得是它们内心这么想，比如Cloudera也有自家的impala，支持Spark肯定会让它自家很难受，但如果你的客户强烈要求你支持，你是没有选择的。另外起名字也很重要，Spark就占了先机，它们CTO说Where There’s Spark There’s Fire。它是用函数式语言Scala编写，Spark简单说就是内存计算（包含迭代式计算，DAG计算,流式计算 ）框架，之前MapReduce因效率低下大家经常嘲笑，而Spark的出现让大家很清新。 Reynod 作为Spark核心开发者, 介绍Spark性能超Hadoop百倍，算法实现仅有其1/10或1/100。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片35.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片35.jpg"/>
        </a>
       </p>
       <p>
        为啥用Spark，最直接的就是快啊，你用Hadoop跑大规模数据几个小时跑完，这边才几十秒，这种变化不仅是数量级的，并且是对你的开发方式翻天覆地的变化，比如你想验证一个算法，你也不知道到底效果如何，但如果能在秒级就给你反馈，你可以立马去调节。其他的如比MapReduce灵活啊，支持迭代的算法，ad-hoc query, 不需要你费很多力气花在软件的搭建上。如果说你用Hadoop的组建集群，测试，部署一个简单任务要1周的时间，Spark可能只要一天。在去年的Sort benchmark上，Spark用了23min跑完了100TB的排序，刷新了之前Hadoop保持的世界纪录。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片36.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片36.jpg"/>
        </a>
       </p>
       <p>
        下面这个是跟Hadoop跟Spark在回归算法上比较，在Hadoop的世界里，做迭代计算是非常耗资源，它每次的IO 序列画代价很大，所以每次迭代需要差不多的等待。而Spark第一次启动需要载入到内存，之后迭代直接在内存利用中间结果做不落地的运算，所以后期的迭代速度快到可以忽略不计。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片37.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片37.jpg"/>
        </a>
       </p>
       <p>
        Spark也是一个生态系统，除了核心组建Spark，它也是可以跑在Hadoop上面，而它还提供了很多方便的库，比如做流式计算，Spark Streaming，比如GraphX做图的运算，MLBase做机器学习，Shark类似Hive，BinkDB也很有意思，为了达到高效，它允许你提供一个误差概率，如果你要求的精确度越低，它的运算速度就越快，在做一些模糊计算时像twitter的follower数目，可以提高效率。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片38.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片38.jpg"/>
        </a>
       </p>
       <p>
        所以总体来说，Spark是一个非常精炼的API，它提供常用的集合操作，然后本身可以独立运行，或者在Hadoop Yarn上面，或者Mesos，而存储也可以用HDFS，做到了兼容并包，敏捷高效。是不是会取代Hadoop或者成为Hadoop的下一代核心，我们拭目以待！
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片39.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片39.jpg"/>
        </a>
       </p>
       <p>
        说到一些工业实践，我可以拿Linkedin举例子，在Linkedin，有很多数据产品，比如People you may like, job you may be interested, 你的用户访问来源，甚至你的career path都可以挖掘出来。那么在Linkedin也是大量用到开源技术，我这里就说一个最成功的Kafka，它是一个分布式的消息队列，可以用在tracking，机器内部metrics，数据传输。数据在前端后端会经过不同的存储或者平台，每个平台都有自己的格式，如果没有一个unified log，会出现灾难型的O(m*n)的数据对接复杂度，如果你设定的格式一旦发生变化，也是要修改所有相关的。所以这里提出的中间桥梁就是Kafka，大家约定用一个格式作为传输标准，然后在接受端可以任意定制你想要的数据源（topics),最后实现的线性的O(m+n)的复杂度。对应的设计细节，还是要参考设计文档
        <a href="http://kafka.apache.org/">
         http://kafka.apache.org/
        </a>
        这里面主要作者Jay Kreps，Rao Jun 出来成立了Kafka作为独立发展的公司。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片40.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片40.jpg"/>
        </a>
       </p>
       <p>
        在Linkedin，Hadoop作为批处理的主力，大量应用在各个产品线上，比如广告组。我们一方面需要去做一些灵活的查询分析广告主的匹配，广告预测和实际效果，另外在报表生成方面也是Hadoop作为支持。如果你想去面试Linkedin 后端组，我建议大家去把Hive, Pig, Azkaban(数据流的管理软件），Avro 数据定义格式，Kafka，Voldemort 都去看一些设计理念，linkedin有专门的开源社区，也是build自己的技术品牌。
        <a href="http://data.linkedin.com/">
         http://data.linkedin.com/
        </a>
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片41.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片41.jpg"/>
        </a>
       </p>
       <p>
        那同学们如果问如何开始学习大数据，我也有一些建议，首先还是打好基础，Hadoop虽然是火热，但它的基础原理都是书本上很多年的积累，像Unix设计哲学，数据库的原理，这里也推荐了一些重量级的书可以参考。其次是选择目标，如果你像做数据科学家，我可以推荐coursera的data science课程，通俗易懂
        <a href="https://www.coursera.org/specialization/jhudatascience/1">
         https://www.coursera.org/specialization/jhudatascience/1
        </a>
       </p>
       <p>
        学习Hive，Pig这些基本工具，如果做应用层，主要是把Hadoop的一些工作流要熟悉，包括一些基本调优，如果是想做架构，除了能搭建集群，对各个基础软件服务很了解，还要理解计算机的瓶颈和负载管理，Linux的一些性能工具。最后还是要多加练习，大数据本身就是靠实践的，你可以先按API写书上的例子，能够先调试成功，在下面就是多积累，当遇到相似的问题能找到对应的经典模式，再进一步就是实际问题，也许周边谁也没遇到，你需要些灵感和网上问问题的技巧，然后根据实际情况作出最佳选择。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片42.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片42.jpg"/>
        </a>
       </p>
       <p>
        这边列出一些参考资料，比如数据库系统，Hadoop 最经典的the definitive guide, 我在知乎上也有分享
        <a href="http://www.zhihu.com/question/23655827/answer/29611595">
         http://www.zhihu.com/question/23655827/answer/29611595
        </a>
       </p>
       <p>
        还有一些科普或者管理书籍不错我都一并推荐。
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/01/图片43.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/01/图片43.jpg"/>
        </a>
       </p>
       <p>
        最后的话，谢谢！
       </p>
       <p>
       </p>
       <p>
        <strong>
         作者简介
        </strong>
        ：董飞，硅谷在线教育公司Coursera数据工程师，毕业于南开大学，加入创业公司酷迅，做实时信息检索，后来进入百度基础架构组，搭建了Baidu App Engine的早期版本，杜克大学留学经历，攻读硕士期间，参与Hadoop大数据研究项目Starfish，在Amazon EC2部门实习，了解其的内部架构，毕业后加入Linkedin广告组，涉及Hadoop调优，Data Pipeline, 实时系统。
       </p>
       <p>
        在多年工作中，除了对技术的不懈追求，也积累了大量的面试经验，从国内的一线互联网百度，阿里巴巴，奇虎，到美国一线公司Facebook，Google，Linkedin，Twitter，到热门Startup，Uber，Pinterest，Airbnb，Dropbox，Snapchat，拿到10+ offer。并且在Linkedin期间，为全公司前三的面试官，参与面试题制定，乐于分享并帮助很多人成功求职，实现目标。
       </p>
       <p>
        在知乎上写完关于技术，求职的几个帖子，引起强烈反响。
       </p>
       <p>
        美国大数据工程师面试攻略有哪些？
       </p>
       <p>
        <a href="http://www.zhihu.com/question/25908682/answer/31637652">
         http://www.zhihu.com/question/25908682/answer/31637652
        </a>
       </p>
       <p>
        知乎日报 哪些硅谷创业公司能给拜访者留下深刻印象？
       </p>
       <p>
        <a href="http://daily.zhihu.com/story/4264615">
         http://daily.zhihu.com/story/4264615
        </a>
       </p>
       <p>
        Coursera上有哪些课程值得推荐？
       </p>
       <p>
        <a href="http://www.zhihu.com/question/22436320/answer/32477238">
         http://www.zhihu.com/question/22436320/answer/32477238
        </a>
       </p>
       <p>
       </p>
       <p>
        感谢董飞的投稿，如果您认同本文，欢迎转载，请注明出处：
        <a href="http://dataunion.org/">
         数盟
        </a>
        ，文章链接：
        <a href="http://dataunion.org/?p=9089">
         http://dataunion.org/?p=9089
        </a>
       </p>
      </div>
      <div>
       <strong>
        注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。
       </strong>
      </div>
      <!--content_text-->
      <div class="fenxian">
       <!-- JiaThis Button BEGIN -->
       <div class="jiathis_style_32x32">
        <p class="jiathis_button_weixin">
        </p>
        <p class="jiathis_button_tsina">
        </p>
        <p class="jiathis_button_qzone">
        </p>
        <p class="jiathis_button_cqq">
        </p>
        <p class="jiathis_button_tumblr">
        </p>
        <a class="jiathis jiathis_txt jtico jtico_jiathis" href="http://www.jiathis.com/share" target="_blank">
        </a>
        <p class="jiathis_counter_style">
        </p>
       </div>
       <!-- JiaThis Button END -->
      </div>
     </article>
     <!--content-->
     <!--相关文章-->
     <div class="xianguan">
      <div class="xianguantitle">
       相关文章！
      </div>
      <ul class="pic">
       <li>
        <a href="http://dataunion.org/20689.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/09/t018551be7512d5fc3f_副本-300x148.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/20689.html" rel="bookmark" title="大数据正式提升为国家战略，下一个万亿风口正席卷而来！">
         大数据正式提升为国家战略，下一个万亿风口正席卷而来！
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/20383.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/08/t01b518960132d108f4-300x165.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/20383.html" rel="bookmark" title="大数据吹了这么久为什么还落不了地？就因为这九点">
         大数据吹了这么久为什么还落不了地？就因为这九点
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/20372.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/08/t015a7d6f4f8f7d005e_副本1-300x166.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/20372.html" rel="bookmark" title="#深度好文#大数据，小数据，哪道才是你的菜？">
         #深度好文#大数据，小数据，哪道才是你的菜？
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/20361.html">
         <img src="http://dataunion.org/wp-content/uploads/2015/08/t01a45218102af0c6b2-300x209.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/20361.html" rel="bookmark" title="60款顶级大数据开源工具！总有一款适合你">
         60款顶级大数据开源工具！总有一款适合你
        </a>
       </li>
      </ul>
     </div>
     <!--相关文章-->
     <div class="comment" id="comments">
      <!-- You can start editing here. -->
      <!-- If comments are open, but there are no comments. -->
      <div class="title">
       期待你一针见血的评论，Come on！
      </div>
      <div id="respond">
       <p>
        不用想啦，马上
        <a href="http://dataunion.org/wp-login.php?redirect_to=http%3A%2F%2Fdataunion.org%2F9089.html">
         "登录"
        </a>
        发表自已的想法.
       </p>
      </div>
     </div>
     <!-- .nav-single -->
    </div>
    <!--Container End-->
    <aside id="sitebar">
     <div class="sitebar_list2">
      <div class="wptag">
       <span class="tagtitle">
        热门标签+
       </span>
       <div class="tagg">
        <ul class="menu" id="menu-%e5%8f%8b%e6%83%85%e9%93%be%e6%8e%a5">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1605" id="menu-item-1605">
          <a href="http://taidizh.com/">
           泰迪智慧
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20884" id="menu-item-20884">
          <a href="http://www.transwarp.cn/">
           星环科技
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-3538" id="menu-item-3538">
          <a href="http://datall.org/">
           珈和遥感
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20888" id="menu-item-20888">
          <a href="http://www.chinahadoop.cn/">
           小象学院
          </a>
         </li>
        </ul>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <div class="textwidget">
       <div align="center">
        <a href="http://study.163.com/course/courseMain.htm?courseId=991022" target="_blank">
         <img src="http://dataunion.org/wp-content/uploads/2016/03/dv.jpg"/>
        </a>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       文章分类
      </h4>
      <div class="tagcloud">
       <a class="tag-link-44" href="http://dataunion.org/category/industry/demo" style="font-size: 10.204724409449pt;" title="4个话题">
        Demo展示
       </a>
       <a class="tag-link-31" href="http://dataunion.org/category/experts" style="font-size: 15.826771653543pt;" title="52个话题">
        专家团队
       </a>
       <a class="tag-link-870" href="http://dataunion.org/category/tech/ai" style="font-size: 19.795275590551pt;" title="273个话题">
        人工智能
       </a>
       <a class="tag-link-488" href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f" style="font-size: 8pt;" title="1个话题">
        加入数盟
       </a>
       <a class="tag-link-869" href="http://dataunion.org/category/tech/viz" style="font-size: 17.204724409449pt;" title="93个话题">
        可视化
       </a>
       <a class="tag-link-30" href="http://dataunion.org/category/partners" style="font-size: 10.645669291339pt;" title="5个话题">
        合作伙伴
       </a>
       <a class="tag-link-889" href="http://dataunion.org/category/parterc" style="font-size: 11.582677165354pt;" title="8个话题">
        合作会议
       </a>
       <a class="tag-link-104" href="http://dataunion.org/category/books" style="font-size: 12.96062992126pt;" title="15个话题">
        图书
       </a>
       <a class="tag-link-220" href="http://dataunion.org/category/tech/base" style="font-size: 19.850393700787pt;" title="281个话题">
        基础架构
       </a>
       <a class="tag-link-219" href="http://dataunion.org/category/tech/analysis" style="font-size: 19.409448818898pt;" title="232个话题">
        数据分析
       </a>
       <a class="tag-link-887" href="http://dataunion.org/category/tech/dm" style="font-size: 13.291338582677pt;" title="17个话题">
        数据挖掘
       </a>
       <a class="tag-link-34" href="http://dataunion.org/category/tech" style="font-size: 20.732283464567pt;" title="404个话题">
        文章
       </a>
       <a class="tag-link-1" href="http://dataunion.org/category/uncategorized" style="font-size: 22pt;" title="693个话题">
        未分类
       </a>
       <a class="tag-link-4" href="http://dataunion.org/category/events" style="font-size: 14.503937007874pt;" title="29个话题">
        活动
       </a>
       <a class="tag-link-890" href="http://dataunion.org/category/tech/%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0" style="font-size: 10.204724409449pt;" title="4个话题">
        深度学习
       </a>
       <a class="tag-link-221" href="http://dataunion.org/category/tech/devl" style="font-size: 18.968503937008pt;" title="193个话题">
        编程语言
       </a>
       <a class="tag-link-888" href="http://dataunion.org/category/career" style="font-size: 15.661417322835pt;" title="48个话题">
        职业规划
       </a>
       <a class="tag-link-5" href="http://dataunion.org/category/jobs" style="font-size: 14.11811023622pt;" title="25个话题">
        职位
       </a>
       <a class="tag-link-871" href="http://dataunion.org/category/industry" style="font-size: 15.716535433071pt;" title="49个话题">
        行业
       </a>
       <a class="tag-link-613" href="http://dataunion.org/category/industry/case" style="font-size: 16.984251968504pt;" title="84个话题">
        行业应用
       </a>
       <a class="tag-link-885" href="http://dataunion.org/category/industry/news" style="font-size: 17.425196850394pt;" title="102个话题">
        行业资讯
       </a>
       <a class="tag-link-10" href="http://dataunion.org/category/training" style="font-size: 14.228346456693pt;" title="26个话题">
        课程
       </a>
       <a class="tag-link-16" href="http://dataunion.org/category/sources" style="font-size: 15.661417322835pt;" title="48个话题">
        资源
       </a>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       功能
      </h4>
      <ul>
       <li>
        <a href="http://dataunion.org/wp-login.php?action=register">
         注册
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/wp-login.php">
         登录
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/feed">
         文章
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/comments/feed">
         评论
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
         WordPress.org
        </a>
       </li>
      </ul>
     </div>
    </aside>
    <div class="clear">
    </div>
   </div>
   <!--main-->
   ﻿
   <footer id="dibu">
    <div class="about">
     <div class="right">
      <ul class="menu" id="menu-%e5%ba%95%e9%83%a8%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-18024" id="menu-item-18024">
        <a href="http://dataunion.org/category/partners">
         合作伙伴
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20881" id="menu-item-20881">
        <a href="http://dataunion.org/contribute">
         文章投稿
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20872" id="menu-item-20872">
        <a href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f">
         加入数盟
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22441" id="menu-item-22441">
        <a href="http://dataunion.org/f-links">
         友情链接
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20874" id="menu-item-20874">
        <a href="http://dataunion.org/aboutus">
         关于数盟
        </a>
       </li>
      </ul>
      <p class="banquan">
       数盟社区        ，
        做最棒的数据科学社区
      </p>
     </div>
     <div class="left">
      <ul class="bottomlist">
       <li>
        <a href="http://weibo.com/DataScientistUnion  " target="_blank" 　title="">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weibo.png"/>
        </a>
       </li>
       <li>
        <a class="cd-popup-trigger" href="http://dataunion.org/9089.html#0">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weixin.png"/>
        </a>
       </li>
      </ul>
      <div class="cd-popup">
       <div class="cd-popup-container">
        <h1>
         扫描二维码,加微信公众号
        </h1>
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/2014-12-06-1515289049.png"/>
        <a class="cd-popup-close" href="http://dataunion.org/9089.html">
        </a>
       </div>
       <!-- cd-popup-container -->
      </div>
      <!-- cd-popup -->
     </div>
    </div>
    <!--about-->
    <div class="bottom">
     <a href="http://dataunion.org/">
      数盟社区
     </a>
     <a href="http://www.miitbeian.gov.cn/" rel="external nofollow" target="_blank">
      京ICP备14026740号
     </a>
     联系我们：
     <a href="mailto:contact@dataunion.org" target="_blank">
      contact@dataunion.org
     </a>
     <div class="tongji">
     </div>
     <!--bottom-->
     <div class="scroll" id="scroll" style="display:none;">
      ︿
     </div>
    </div>
   </footer>
   <!--dibu-->
  </div>
 </body>
</html>